连载（13）：统计图形艺术——线性回归

Original easyPlot图形小组百步优解

2024-11-28

中国近代启蒙思想家、翻译家严复(1854-1921)提出，翻译力求信、达、雅。统计图形，亦须如此。信(faithfulness)，指意义不悖原文，要准确传达数据原有之义，不偏离，不遗漏，也不要随意增减意思；达(expressiveness)，指不拘泥于固有形式，译力求通顺、易懂、明白；雅(elegance)，指选用的图形、样式要得体，力求简明、优雅。

生物医学研究产生的数据纷繁复杂，合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意，消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果，这就是医学统计图形的魅力。

历经半年准备，我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块，连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足，请广大读者斧正。尚有多处示例待优化，欢迎提供素材。

13
线性回归Linear Regression

溯源和简介

回归(regression)的概念，是由英国的生物学家和统计学家Sir Francis Galton(高尔顿，1822～1911)在研究身高的遗传特性时提出。在其表哥达尔文的巨著《On the Origin of Species(物种起源)》出版后，促使了他用统计学手段来研究遗传和进化问题。“regression”一词来自拉丁语根，意为“going back”。他和他的学生Karl Pearson在观察1078对父母和子女身高数据时发现 [1]，高个子父母（父母平均身高，即原文中的mid-parent height），其子代的身高(child height)通常高于平均水平，但不见得比父母还要高，反之亦然。即，子代身高具有向平均值“回归”的现象(regression towards mediocrity)，大自然对进化具有一定的约束力，以保证人类身高的稳定性二避免两极分化。图 13.1和图 13.2抽象地表达了子女身高向父母平均身高回归的现象。现代意义上的“回归”并非指“向均数靠拢” [2]，而是指高尔顿对于变量间数量关系评价的方法。

图13.1: 父母与子女身高向均数回归现象

图13.2: Galton原始文献揭示

父母身高和子女身高的关系

应用场景

通过散点图和拟合的回归线展示具有线性趋势之两指标间的关系。
通过拟合回归线的可信区间带(confidence band)和参考区间带(reference band)，为条件参数估计和异常值识别提供更丰富的信息。

应用示例

01直线回归Linear Regression

例: 本节用例为美国加州教育部所收集的400所小学的学生学业能力测评(academic performance index, API)数据，每一条记录代表一所小学，来源于R包survey中的数据集api。该数据集中包含学生2000年、1999年学习成绩(API)和班级规模、入学率、贫困情况等其他数据。为了便于展示，本例将有确实值的记录删除，最终保留295条记录以供分析。

下图展示2000年学生学业成绩(api00)和接受膳食补贴的学生比例(meals)之间的线性关系(图 13.3)。

由图可见，两者呈现线性趋势。散点图中间的直线即为回归线，表示接受餐补学生不同比例下的学业成绩的均数估计值(条件均数)；回归线两侧的“带”即为95%可信区间带，表示各条件均数的可信区间估计。

两侧的boxplot反映两指标的分布情况。详情可参见“07 散点图”一节知识点。

图13.3：学生学业成绩和接受餐补学生比例关系散点图

例: 本例使用《医学统计学（第三版）》中10名3岁男童体重与体表面积(Body Surface Area, BSA)的例子来展示直线回归五线谱(图 13.4)。

在直线回归模型中，常绘制五线谱图，即回归线、各条件均数的95%可信区间带和给定X时Y值的容许区间(tolerance band)(图 13.4)，容许区间就是总体中X固定时，个体Y值的波动范围。

图13.4：10名3岁男童体重与体表面积回归五线谱

02双变量参考值椭圆Bivariabe Ellipse Interval

在一维空间中，参考值范围是一个区间。例如，对于符合正态分布的数据的95%参考值范围可通过 (Mean-1.96SD, Mean+1.96SD)而获得。而在二维空间中，对于两个服从正态分布且呈具有相关性的指标来说，参考值范围不是独立的区间，而是一个椭圆(图13.5)。

例：本例使用500名江苏省小学女生的身高体重数据来展示参考值椭圆，在椭圆之外的点即为潜在离群值。

注意：这里的“参考值椭圆”，和上例中的“参考值范围带”，有何区别？在识别具有一定相关性的两个指标的潜在离群值，该用哪一种方法？

图13.5：500名小学女生身高体重

回归参考值椭圆

03直线回归误差线图Regression with Deviations

在评价线性回归模型时，通常会使用决定系数来评价，同样也可以用回归的预测偏差来评价，即观测值到回归线的纵向距离(S)。S越小，说明模型拟合的越好，观察值更接近拟合线。

例：续首示例(图 13.6)。

图13.6：学生学业成绩与接受餐补

学生比例回归误差线图

04直线回归响应面Linear Regression Response Surface

单变量线性回归可用二维散点图展示，两个自变量的回归模型需要用3D图形来展示。

例：本例基于上例的第一个模型(lmfit1)，用ploty包实现三维散点图和动态交互(图 13.7)。

图13.7：三维散点图和响应面

05回归模型效果评价Regression Performance Rader Plot

模型拟合效果，需要客观指标来评估 [3]，常见的有：

，决定系数(multiple correlation coefficient, determination coefficient)，可反映模型的拟合优度(goodness of fit)，代表的是一个或多个因变量与自变量线性组合的总的相关关系，即预测变量能解释结果变量变异的百分比例，范围为0到1，越大代表拟合的越好。

，校正负相关系数(adjusted multiple correlation coefficient)，又称修正复相关系数，在基础上对方程中自变量个数进行了“惩罚”，只有当统计学意义上的变量被纳入回归方程，方会增加。

AIC，赤池信息准则(Akaike’s Information Criterion)，是日本学者赤池于1973年提出[4]。AIC处理统计问题大致分为三个步骤：提出统计模型，由极大似然估计法进行参数估计，根据AIC最小化准则来优化模型。AIC鼓励数据拟合的优良性但应尽量避免出现过拟合的现象。

BIC，贝叶斯信息量(Bayesian Information Criterion)，对部分未知的状态用主观概率估计，然后用贝叶斯公式对后验概率进行修正，最后再利用期望值和修正概率做出最优决策。AIC和BIC均引入了对模型参数个数的惩罚项，但BIC的惩罚力度更大，更倾向于选择精简模型。

RMSE，均方根误差(root mean squared error)，模型预测的结果与实际观察值间的平均误差，用来衡量观测值与预测值之间的偏差，RMSE越低，效果越好。

RSE，残差标准误(residual standard error)，是对回归模型失拟合(lack of fit)的度量，RSE越小，代表方程拟合的越好。

例：本例中使用学生的学习成绩(api00)和享受膳食补贴的学生比例(meals)、学习英语的学生比例(ell)做3种简单的线性回归方程比较，可使用performance包中的compare_performance函数来比较几种回归模型的优劣，并做雷达图来更直观地显示。根据AIC和复相关系数R可看出拟合的第一个方程更好(图 13.8)。

图13.8：回归雷达图

注意事项：

进行线性回归，首先要通过散点图观察有无宏观线性趋势，有无不等方差等违背线性回归“LINE”要求的情况。
离群点或强影响点并非一定是异常点，而是提示研究者需要进一步核查数据的准确性，首先要排除是否存在数据错误，然后判断是否需要采取变量变换等措施。
“异常点”或许蕴含重要信息，不可简单的删除了事。所有删除数据的依据和操作都应如实记录，以免主观判断而影响样本的代表性，降低数据的“完整性(data integrity)”，进而有损结论的外推性。

以上为线性回归在医学研究中的常用场景示例，尚有更多扩展。篇幅有限，欢迎联系获取源码。
参考文献：

Galton F. Regression towards mediocrity in hereditary stature. The Journal of the Anthropological Institute of Great Britain and Ireland [Internet]. 1886;15:246–63. Available from: http://www.jstor.org/stable/2841583
Bland JM, Altman DG. Statistic notes: Regression towards the mean. 1994;308(6942):1499. Available from: https://www.bmj.com/content/bmj/308/6942/1499.full.pdf
Burnham KP, Anderson DR. A practical information-theoretic approach. 2002;2.
Akaike H. A new look at the statistical model identification. 1974;19(6):716–23.

写作：魏永越*，张隆垚

排版：李颖

审阅：陈峰

关注公众号，联系获取源码

欢迎供稿 | 敬请斧正

easyPlot小组 (easyplot@126.com)

责任作者 (weiyongyue@126.com)

Powered by 百步科技